iT邦幫忙

2024 iThome 鐵人賽

DAY 1
2

前言 - 為什麼基礎建設很重要?

嗨嗨,大家好,我是精靈。

身為畢業兩年左右的菜鳥,因為意外不小心跳入了infra火坑,爬上來之後又意外吃了LLM這塊餅。接觸了一些研究單位、新創、傳產,意外發現大家都對infra沒有什麼認識,甚至很多人都不知道什麼是infra工程師。

不過大家都想一起快樂的畫大餅,抱有一個想要做一個local LLM服務的夢想。雖然了解不深,只知道可以call OpenAI的API、好像有GPU顯卡就可以下載模型跑了,中間怎麼做怎麼設定就不知道了。

這邊遇過到一個情境是:

有公司不信任大公司的API或資料儲存服務,怕文件機密外流。沒太多預算買設備卻想要local服務,想自己架設,不想要準確度差,又想要速度快,多人使用都沒問題。

這也是寫這個主題的原因,讓我們一起來研究這個local LLM服務的夢想!

在這個狀況下,基礎建設是最重要的,好的基礎建設才能讓後面那些工程師和user快樂的玩AI

https://ithelp.ithome.com.tw/upload/images/20240902/20168115l55zCH1v7N.jpg
(圖源: 網路)


段落主題

目前規劃的30天主題如下,推理相關技術的分類參考了幾篇論文。

  • LLM 基本背景知識
    • LLM 想做服務的迷思
    • LLM 吃什麼資源
    • LLM 現在推理的問題點在哪裡
    • 硬體設備、其他背後所需成本
    • 台灣的資料中心、繁體中文 local LLM 模型
  • 推理加速相關技術
    • 模型/參數層面最佳化 (Model-level / Parameter-Level Optimization)
      • 模型壓縮技術 (Model Compression)
    • 系統/硬體層面最佳化 (System-level / Hardware-Level Optimization)
      • 針對計算資源的分散式系統 (Distributed Systems)
      • 平行運算 (Parallel Serving)
      • 不同的 batching 方法
      • 減少 KV 快取
      • 記憶體管理 (Memory Management)
      • Offloading Inference
    • 演算法層面最佳化 (Algorithm-level Optimization)
      • 預測推理 (Speculative Decoding)
    • 資料面最佳化 (Data-level Optimization)
      • Prompt 壓縮技術 (Prompt Compression)
  • Local LLM 推理加速框架
    • 推理加速框架之間的比較 (個人電腦/伺服器中開API)
    • 經典加速框架 vLLM
  • 資料中心與分散式系統
    • 資料中心、VM、針對服務的分散式系統
    • HA 架構、監控
  • 總結
    • LLMOps & 未來展望

本系列文章將針對小公司經費、設備不足去探討該怎麼做可以節省成本;也針對大公司的infra架構去介紹資料中心的設計,有什麼方法最佳化運用所有的GPU計算資源。

另外如果還有餘力,想寫一些大學/研究所時基本上沒學過,但是工作就突然要會的一些東西。

雖然目前有很多優化地端模型、加速的方法,但每個方法都會各有優缺,就看使用上要怎麼做平衡了。本文完全不考慮model training或fine-tuning的部分,全部以LLM相關infra知識和各種LLM推理(inference)加速方法為主。

因自身還很資淺,若有哪裡寫得不對,歡迎資深工程師大大們提出,謝謝!

https://ithelp.ithome.com.tw/upload/images/20240902/20168115n8vjlNl4Fz.jpg
(圖源: 網路)


適合閱讀的對象

  • 想要了解 AI 或是一般 IT 服務底層 infra 的設計和運作方式的人
  • 有興趣使用 local LLM 做服務,或是希望 local LLM 推理速度可以更快的開發者
  • 設備即使只有一台電腦 + 消費級顯卡也想玩 local LLM 的人
  • 已有多台 GPU server 但不知道該如何做算力分配的開發者
  • 在開發 local LLM 服務過程中,會希望同時考慮到未來維運部分的開發者

[雖然學校會教在別人建的環境中跑程式,但沒有教要怎麼做基礎建設和後續的維運]
https://ithelp.ithome.com.tw/upload/images/20241114/20168115J623rCcCT3.jpg
(圖源: reddit,這張同樣放在Day28中)


參考資料

參考推理相關技術的論文做分類

A Survey on Efficient Inference for Large Language Models
https://arxiv.org/pdf/2404.14294
LLM Inference Unveiled: Survey and Roofline Model Insights
https://arxiv.org/pdf/2402.16363


下一篇
Day2 - 應用LLM常見的迷思
系列文
Local LLM infra & Inference 一部曲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言